Professional Data Engineer
#GCP認定試験
https://gyazo.com/31abc2ecbe35ea2f1866594501a672a9
https://www.credential.net/5125ff3c-b55e-4786-97ed-952d3f851828?key=9470d7386777af1b387c4ca7648f8e09d160ae00e9f0d9bd7ff5bf38f7e08c55
概要
合格
/diary-hiroki/2021/6/26
学習プランニング
よく出るサービス
Dataflow
Dataproc
Spanner
BigQuery
BigQueryML
ML関係
Stackdriver
kafka
hadoop
spark
合格までの勉強方法
Google Cloud Certified Professional Data Engineer: Pr. Testsの終了/icons/check.icon
試験趣向のGCPサービスについて公式ドキュメントを読んでScrapboxに理解をコミットしている
機械学習について
Datamixの復習とか
cloudgirl読むとか
その他の学習リソース
courserapdeコース
公式模試
Google Professional Data Engineer認定資格 合格体験記 - 新しいことにはウェルカム
GCP Professional Data Engineer 認定資格の勉強法 - Qiita
試験について
レイテンシ、スループット、トランザクションに関するトレードオフ
分散システム→CAP定理
BigQuery周り
データのバッチとストリーミング
Cloud Dataflow,Cloud Dataproc,Cloud Pub/Sub
Cloud Composerでのwfオーケストレーション
データ基盤のインフラ設計
可用性とか
メッセージブローカー→コンポーネント間の連携検討ポイント
メッセージキュー→コンポーネント間の連携検討ポイント
データ送達保証
ストレージについて→GCPデータベース比較
ML API
Cloud Machine Learning Engine
エッジコンピューティング
機械学習
パイプラインモニタリング→stackdriver
ACID特性、冪等、結果性合成から選択
試験感想
合格までの勉強法でUdemyとdataflow/CloudLogging/Bigtableの公式を読んだくらいだったけど合格できた。
ユースケース毎に各DB/ストレージを選択できるだけで半分くらいは取れそう
Dataflowが結構重点的に出たのでDataflowをしっかり深ぼって理解しておくと良い。Apache Beamのプログラミングモデルの理解とチュートリアルをやってみるとか。
/diary-hiroki/2021/6/24、/diary-hiroki/2021/6/25、/diary-hiroki/2021/6/26
この3日でほぼなんとかした感じ
公式模試も結局やってない
そんなに難しくない
kafka好きすぎだろ笑というぐらい出る
kafkaからpubsubへの移行でpubsubコネクター
緯度経度の問題出た
L1正則化ではなくベクトルとして入力を選択した
どちらが正解かは断言できず
Spannerの主キーUUID4
20TBでRDB→Spanner選んだけど6TBまでじゃないの?
BigQueryのスロット割当が2000限界でどうする?
割当は増やせない、んだよねこれは?
プロジェクトは増やすのはだめという制約
オンプレからの膨大データをTransferappliance
Bigtableのパフォーマンスについて
Dataflowのウィンドウ関数